近年来,通过深层生成模型,音频合成的进展很大。但是,最新的很难量化。在报告结果时,不同的研究通常使用不同的评估方法和不同的指标,从而直接与其他系统进行比较,即使不是不可能。此外,在大多数情况下,报告指标的感知相关性和含义都未知,禁止对实际的可用性和音频质量的任何结论性见解。本文介绍了一项研究,该研究与(i)一组先前提出的用于音频重建的客观指标以及(ii)一项听力研究,研究了最先进的方法。结果表明,当前使用的客观指标不足以描述当前系统的感知质量。
translated by 谷歌翻译
There has been a concurrent significant improvement in the medical images used to facilitate diagnosis and the performance of machine learning techniques to perform tasks such as classification, detection, and segmentation in recent years. As a result, a rapid increase in the usage of such systems can be observed in the healthcare industry, for instance in the form of medical image classification systems, where these models have achieved diagnostic parity with human physicians. One such application where this can be observed is in computer vision tasks such as the classification of skin lesions in dermatoscopic images. However, as stakeholders in the healthcare industry, such as insurance companies, continue to invest extensively in machine learning infrastructure, it becomes increasingly important to understand the vulnerabilities in such systems. Due to the highly critical nature of the tasks being carried out by these machine learning models, it is necessary to analyze techniques that could be used to take advantage of these vulnerabilities and methods to defend against them. This paper explores common adversarial attack techniques. The Fast Sign Gradient Method and Projected Descent Gradient are used against a Convolutional Neural Network trained to classify dermatoscopic images of skin lesions. Following that, it also discusses one of the most popular adversarial defense techniques, adversarial training. The performance of the model that has been trained on adversarial examples is then tested against the previously mentioned attacks, and recommendations to improve neural networks robustness are thus provided based on the results of the experiment.
translated by 谷歌翻译
As multimodal learning finds applications in a wide variety of high-stakes societal tasks, investigating their robustness becomes important. Existing work has focused on understanding the robustness of vision-and-language models to imperceptible variations on benchmark tasks. In this work, we investigate the robustness of multimodal classifiers to cross-modal dilutions - a plausible variation. We develop a model that, given a multimodal (image + text) input, generates additional dilution text that (a) maintains relevance and topical coherence with the image and existing text, and (b) when added to the original text, leads to misclassification of the multimodal input. Via experiments on Crisis Humanitarianism and Sentiment Detection tasks, we find that the performance of task-specific fusion-based multimodal classifiers drops by 23.3% and 22.5%, respectively, in the presence of dilutions generated by our model. Metric-based comparisons with several baselines and human evaluations indicate that our dilutions show higher relevance and topical coherence, while simultaneously being more effective at demonstrating the brittleness of the multimodal classifiers. Our work aims to highlight and encourage further research on the robustness of deep multimodal models to realistic variations, especially in human-facing societal applications. The code and other resources are available at https://claws-lab.github.io/multimodal-robustness/.
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是,寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制,Covid $ 19 $流行的情况进一步加剧了这一点。如今,Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是,在线口头资源很少,因为创建这样的资源是一个广泛的过程,需要数月的手动努力来记录雇用的演员。由于手动管道,此类平台也受到词汇,支持语言,口音和扬声器的限制,并且使用成本很高。在这项工作中,我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇,口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道,以使用最先进的通话标题视频发电机网络,文本到语音的模型和计算机视觉技术来开发这样的平台。然后,我们使用仔细考虑的口头练习进行了广泛的人类评估,以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力,该平台可能会影响数百万听力损失的人。
translated by 谷歌翻译
双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来,Double的脸被演员的脸部和表达式取代,并用昂贵的CGI技术手动表达,耗资数百万美元,花了几个月的时间才能完成。一种自动化,廉价且快速的方法可以是使用旨在将身份从源面部视频(或图像)交换为目标面部视频的面部交换技术。但是,这种方法无法保留演员对场景上下文重要的源表达式。 %对场景必不可少的。在电影院中必不可少的%。为了应对这一挑战,我们介绍了视频对视频(V2V)面部扫描,这是一项可以保留面部交换的新任务(1)源(演员)面部视频的身份和表达方式和(2)背景和目标(双重)视频的姿势。我们提出了一个V2V面部交换系统Cownoff,该系统通过学习强大的混合操作来运行,以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间,然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练,并坚决应对V2V面部交换的非平凡挑战。如实验部分所示,面对面的表现明显优于定性和定量的交替方法。
translated by 谷歌翻译
在本文中,我们探讨了一个有趣的问题,即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是,事实证明很多。我们表明,当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时,我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形,而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频,然后可用于动画单个目标身份图像并生成逼真,准确和高质量的输出。我们的方法很简单,并且与以前的超分辨率方法相比,表现非常好($ 8 \ times $改善了FID得分)。我们还将模型扩展到了谈话视频压缩,并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验(在论文和补充材料中)对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型:\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。
translated by 谷歌翻译
通过医学成像检测疾病是由于其非侵入性的。医学成像支持多种数据模式,可以在人体内部进行彻底快速的外观。但是,解释成像数据通常是耗时的,需要大量的人类专业知识。深度学习模型可以加快解释并减轻人类专家的工作。但是,这些模型是数据密集型的,需要大量标记的图像进行培训。在新型疾病暴发(例如Covid-19)中,我们通常没有所需的标记成像数据,尤其是在流行病开始时。深度转移学习通过在公共领域中使用验证的模型来解决此问题,例如任何VGGNET,RESNET,INCEPTION,DENSENET等的变体都是功能学习者,以快速从较少的样本中适应目标任务。大多数审慎的模型都是深层建筑的深度。他们接受了大型多级数据集(例如ImageNet)的培训,并在建筑设计和超级参数调整方面进行了重大努力。我们提出了1个更简单的生成源模型,在单个但相关的概念上预估计,可以与现有较大的预审预周化模型一样有效。我们证明了生成转移学习的有用性,该学习需要较少的计算和培训数据,对于少数射击学习(FSL),使用COVID-19-19,二进制分类用例。我们将经典的深度转移学习与我们的方法进行了比较,还报告了FSL结果,三个设置为84、20和10个培训样本。用于COVID-19分类的生成FSL的模型实现可在https://github.com/suvarnak/generativefslcovid.git上公开获得。
translated by 谷歌翻译
该项目旨在开发和展示一个具有智力的地面机器人,该机器人能够为不同的低高度蔬菜农作物(称为农业应用程序机器人(AAR))进行半自治的农业运营。AAR是一种轻巧的太阳电动机器人,使用智能感知来进行植物及其特征进行检测和分类。该系统还具有用于自动杂草切割过程的机器人臂。机器人可以向诸如农作物,杂草和其他害虫等靶标的肥料喷涂,杀虫剂,除草剂和其他液体。此外,它为未来对高级任务(例如收益率,农作物和土壤健康监测)的研究提供了信息。我们介绍了机器人的设计和相关的实验,这些实验显示了现实世界环境中有希望的结果。
translated by 谷歌翻译
基本图描述了某些道路(或道路集)配置的速度,流量和密度之间的关系。但是,这些图通常不反映有关速度流关系如何随着外源变量(例如路缘配置,天气或其他外源性,上下文信息)的函数而变化的信息。在本文中,我们提出了一种机器学习方法,该方法尊重已知的工程限制和道路通量的物理定律 - 那些在基本图中捕获的方法 - 并显示如何将其用于将上下文信息引入这些图表的生成中。建模任务被称为神经常规微分方程(神经ODES)的探针车辆轨迹重建问题。通过提出的方法,我们将基本图扩展到具有潜在障碍交通数据的非理想道路段。对于模拟数据,我们通过在学习阶段引入上下文信息来概括这种关系,即车辆组成,驾驶员行为,遏制分区配置等,并显示速度流的关系如何随着道路设计而变化而变化。 。
translated by 谷歌翻译